ралансировк 


адим Зотеев, 


Сторадж Яндекса 


-- Мульти-эксабайтный оесе зкогаве 

Е Внутренние клиенты: Диск, Почта, Видео, Карты, Маркет и другие 
-- В основном со! и магт данные -— На9-диски 

-- Распределен в нескольких ДЦ 

-- Есть и репликация, и Егазиге Содте 


1 Яндекс (но) 


Ни2НГоаа** 


2022 


Постановка задачи 


Постановка задачи 


Строим распределенное отказоустойчивое хранилище 


мгКе(кеу, мае) геа4(Кеу) -> маме 


з Яндекс (НЕ) Менгоач" 


Постановка задачи 


Строим распределенное отказоустойчивое хранилище 


мгКе(кеу, мае) геа4(Кеу) -> маме 


< 300 т$ < 300 т$ 


4 Яндекс (НЕ) Менгоач" 


Постановка задачи 


Строим распределенное отказоустойчивое хранилище 


мгКе(кеу, мае) геа4(Кеу) -> маме 


< 300 т$ < 300 т$ 


Задача: балансировать м/г Ке- и геад-нагрузку оптимальным образом: не перегружая никакие 
диски и сеть 


5 Яндекс (не) Неньоаа“ 


Постановка задачи 


Строим распределенное отказоустойчивое хранилище 


мгКе(кеу, мае) геа4(Кеу) -> маме 


< 300 т$ < 300 т$ 


Задача: балансировать \м/гКе- и геад-нагрузку оптимальным образом: не перегружая никакие 
диски и сеть 


Должны переживать Ваг4\мгаге-ошибки: от поломки диска до отключения ДЦ 


5 Яндекс (НЕ) Менгоач" 


Постановка задачи 


Строим распределенное отказоустойчивое хранилище 


мгКе(кеу, мае) геа4(Кеу) -> маме 


< 300 т$ < 300 т$ 


Задача: балансировать \м/гКе- и геад-нагрузку оптимальным образом: не перегружая никакие 
диски и сеть 


Должны переживать Вага\маге-ошибки: от поломки диска до отключения ДЦ 
Чем дешевле, тем лучше 


7 Яндекс (не) Неньоаа“ 


Постановка задачи 


№ М = 


шарда # 4 
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8 Яндекс (НЕ) Менгоа" 


Постановка задачи 


и 
| 


ЗИ 


| 
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-- Шарды фиксированного размера 
-- Диски «нарезаем» под шарды 
-- В каждом сервере много дисков 
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= 


9 Яндекс (НЕ) Менгоа" 


Постановка задачи 


АА» МММ | 
и | | Е 


ыы, \\ АА ИАА | 
Ми 
д 


-- Шарды фиксированного размера 
-- Диски «нарезаем» под шарды 
-- В каждом сервере много дисков 


М 
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1 
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СТОЙКИ 
10 Яндекс (НЕ) Менгоа" 


Постановка задачи 


-- Шарды фиксированного размера 
-- Диски «нарезаем» под шарды 
-- В каждом сервере много дисков 


4 сервера в стойке 
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11 Яндекс (НЕ) Менгоа" 


Постановка задачи 


-- Шарды фиксированного размера 
-- Диски «нарезаем» под шарды 
-- В каждом сервере много дисков 
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по 100+ дисков 
на сервер 


12» Яндекс (НЕ) Менгоа" 


Балансировка м/гКе-нагрузки 


Вариант распределения нагрузки по шардам: 
Па$И т? 


Детерминированный алгоритм записи: 
-- ВазИ(Кеу) % М 
-- Сопя$щепте паз тя 


Необходим переезд данных при изменении № 


14 Яндекс (НЕ) Менгоач" 


Проблема: диск перегружен 


винн’оаС ини 
вил Це» 


5 Яндекс (НЕ) Маньоая“ 


Проблема: фоновый процесс 


дефрагментация 


16 Яндекс (НЕ) Менгоа" 


Проблема: потеря реплики 


^. в ‚55 


7 Яндекс (не) Менгоаа" 


Проблема: потеря реплики 


‚. мще 


18 Яндекс (НЕ) Менгоач" 


Проблема: неравномерное заполнение шардов 


Данные разного размера -> шарды заполняются неравномерно 


19 Яндекс (НЕ) Менгоач" 


Нет контроля над записью! 


20 Яндекс (НЕ) Наньсаа" 


Решение: управлять записью 


13 Яндекс (НЕ) Неньсаа"" 


2022 


Решение: управлять записью 


Выбор шарда при каждой записи 
Недетерминированный алгоритм: взвешенный рандом 


\2 \\3 


22 Яндекс (НЕ) Наньсаа" 


Как считать веса 


Вес = произведение коэффициентов 


„ Яндекс (нь) Меньсая“ 


Как считать веса 


Вес = произведение коэффициентов 


-- Утилизация диска у 


„ Яндекс (нь) НиеНЕоаа** 


2022 


Как считать веса 


Вес = произведение коэффициентов 


-- Утилизация диска у 
-- Утилизация сети = 


- Яндекс (НЕ) Менгоач" 


Как считать веса 


Вес = произведение коэффициентов 


-- Утилизация диска 

-- Утилизация сети И 

-- % свободного места и жы 
Ч15К 


М 


пет 


„ Яндекс (НГ) Меньсая“ 


Как считать веса 


Вес = произведение коэффициентов 


-- Утилизация диска 

-- Утилизация сети 

-- % свободного места 

-- «Живость» всех реплик 


Ох зная 


О дук ы О 


пет 


„ Яндекс (нь) 


Ни2НГоаа** 


2022 


Как считать веса 


Вес = произведение коэффициентов 


Утилизация диска 
Утилизация сети 

% свободного места 
«Живость» всех реплик 


+++ + 


Ваш вариант 


Вх ака 


О дзк ы О 


пет 


‚ Яндекс (нь) 


Ни2НГоаа** 


2022 


Как считать веса 


Вес = произведение коэффициентов 


-- Утилизация диска | 
Тгее_5расе 


-- Утилизация сети \Л/ = В 


-- % свободного места иж 
Ч15К 


пет 
-- «Живость» всех реплик 


-- Ваш вариант 


Можно считать для части шардов 


„ Яндекс (нь) Меньсая“ 


Нужно хранить 14 шарда 


-- Нужна мета-база 
-- Мета-база нагруженная 


ю Яндекс (НЕ) Менгоа" 


Нужно хранить 14 шарда 


-- Нужна мета-база 
-- Мета-база нагруженная 


Можно хранить на стороне клиента 


з Яндекс (НЕ) Менгоаа” 


Сбор стейта 


-- Веса зависят от стейта чае 


сойе ог 


32> Яндекс (НЕ) Менгоа" 


2022 


Сбор стейта 


-- Веса зависят от стейта чае 


сойецог 


вы \\ 
С\\ 


-- Стейт «варится» не мгновенно 


зз Яндекс (НЕ) Менгоаа” 


Сбор стейта 


-- Веса зависят от стейта чае 
-- Стейт «варится» не мгновенно 
-- Сборщик стейта — критичный компонент соесюг 


А Е) № 


4 Яндекс (нЕ) Меньсая“ 


Сбор стейта 


-- Веса зависят от стейта 
-- Стейт «варится» не мгновенно 
-- Сборщик стейта — критичный компонент 


Между сопу1${епсу и аиа|йабИКу выбираем 
ама|аб!Ку 
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—_^& 


За{е 


сойе ог 
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35 Яндекс (нк) 


Ни2НГоаа** 


2022 


Балансировка геад-на 


Проблема: неравномерное распределение нагрузки 


сегуег Х сегуег \У 


7 Яндекс (НГ) Меньсая“ 


Равномерное распределение шардов 


-- Шарды разных сервисов равномерно распределяем по железу 
-- «Горячие» шарды селим рядом с «холодными» (у разных сервисов разная нагрузка) 


зв Яндекс (НГ) Меньоая“ 


Равномерное распределение шардов 


-- Шарды разных сервисов равномерно распределяем по железу 
-- «Горячие» шарды селим рядом с «холодными» (у разных сервисов разная нагрузка) 


-- Нас интересуют: диски, сервера, стойки и целые ДЦ 
ОС > Наск -- зегмег > ОК 


5 Яндекс (НЕ) Меньоая“ 


Равномерное распределение шардов 


-- Шарды разных сервисов равномерно распределяем по железу 

-- «Горячие» шарды селим рядом с «холодными» (у разных сервисов разная нагрузка) 
-- Нас интересуют: диски, сервера, стойки и целые ДЦ 

-- Помогает распределять мгКе-нагрузку 


ОС > Наск -- зегуег > 05К 


40 Яндекс (НЕ) Менгоач" 


Проблема: добавление нового железа 


-- Сначала высокая мтгИе-нагрузка 
-- Потом высокая геад-нагрузка 


сегуег 1 зегуег М сегуег М + 1 


41 Яндекс (НЕ) Менгоач" 


Фоновый переезд данных 


-- Равномерно распределяем 
свободное место 


-- Простая стратегия: % пустых шардов 


сегуег 1 бегуег М сегуег М + 1 


42 Яндекс (НЕ) Менгоач" 


Фоновый переезд данных 


-- Равномерно распределяем 
свободное место 


Простая стратегия: % пустых шардов 


++ 


Нужен шедулинг и процессинг 
переездов 


5егуег 1 


зегуег М сегуег М + 1 


дз Яндекс (НЕ) Менгоач" 


Как выбрать реплику? 


44 Яндекс (нь) НаНГоаа*" 


Выбор реплики 


-- $еацепна| 


6 Ст 


гер!са 1 гер!са 2 герйса 3 


45 Яндекс (НЕ) Менгоач" 


Выбор реплики 


-- $еацепна| 
-- РагаПе! 


герйса 1 герйса 2 герйса 3 


46 Яндекс (НЕ) Менгоач" 


Выбор реплики 


-- $еацепна! 
-- РагаИе! 
-- $оЙ еацепна! 


ыы 


герйса 1 гер!са 2 гер!са 3 


47 Яндекс (НЕ) Менгоач" 


Выбор реплики 


-- $еацепна! 
-- РагаИе! 
-- 5о# зедиепна| 


Подходящая стратегия зависит от сервиса: нагрузки, среднего размера данных 


48 Яндекс (НЕ) Менгоач" 


Предсказание нагрузки 


Проблема: «горячие» шарды разных сервисов 
рядом 


сегуег Х сегуег \У 


50 Яндекс (НЕ) Менгоач" 


Считаем нагрузку 


-- Предсказание нагрузки — нужен 
анализ логов 

-- Оценка будущей нагрузки — 
скользящее среднее 


——Щ геад гр 
—— ме гр 
—— гетоуе гр 


51 Яндекс (не) 


Ни2НГоаа** 


2022 


Считаем нагрузку 


-- Предсказание нагрузки — нужен 
анализ логов 

-- Оценка будущей нагрузки — 
скользящее среднее 


——Щ геад гр$ 
—— ме гр 
—— гетоуе гр 


| выходные 


5? Яндекс (не) 


Ни2НГоаа** 


2022 


Считаем нагрузку 


-- Предсказание нагрузки — нужен 
анализ логов 


-- Оценка будущей нагрузки — 
скользящее среднее 


Считать 1ор5’ы непросто! 


——Щ геад гр$ 
—— ме гр 
—— гетоуе гр 


| выходные 


5з Яндекс (не) 


Ни2НГоаа** 


2022 


Оптимальный способ хранения 


Можем подобрать оптимальный способ 
хранения для шарда: 
-- Изменить число реплик 


-- Хранить с помощью Егазиге Содез | => 


3 герйса$ 2 гер!саз$ — Егазиге Содез, 
(ХЗ) (х2) 4+2 (Х1.5) 


54 Яндекс (НЕ) Менгоач" 


Выводы 


В большом хранилише: 


-- Нужен явный контроль за записью (это не бесплатно) 


55 Яндекс (НЕ) НЕньсаа“" 


2022 


Выводы 


В большом хранилише: 


-- Нужен явный контроль за записью (это не бесплатно) 
-- Равномерное распределение шардов разных сервисов 


55 Яндекс (НЕ) Меньоая“ 


Выводы 


В большом хранилише: 
-- Нужен явный контроль за записью (это не бесплатно) 


-- Равномерное распределение шардов разных сервисов 
-- Переезд шардов для выравнивания доли свободного места 


57 Яндекс (нЕ) Меньсая“ 


Выводы 


В большом хранилише: 


-- Нужен явный контроль за записью (это не бесплатно) 

-- Равномерное распределение шардов разных сервисов 

-- Переезд шардов для выравнивания доли свободного места 

-- Спомощшью предсказания нагрузки можно улучшать балансировку и экономить место (= 


деньги) 


в Яндекс (нь) Меньоая“ 


рим Зотеев 


Голосуйте за мой доклад 


|| _ Старший разработчик 


| МЗ. голееу@уапдех ги 


| || || 
| 
| | | 


Л ‘Пиры Ик уапех, ль Медео 
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2022 


